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摘 要 : 针对 轻 量 级 网 络 在 复杂 环境 下 对 面部 表情 的 特征 提取 不 够 充分 、 泛 化 能 力 不 足 以 及 单 标签 数据 集 无 法 有 效 
描述 复杂 情感 倾向 所 带 来 的 歧义 表情 等 问题 , 提出 了 一 种 结合 改进 ShuffleNet 与 标签 分 布 学 习 的 人 脸 表情 识别 方法 。 
在 不 大 量 增加 计算 复杂 度 的 前 提 下 ， 为 了 避免 模型 的 过 拟 合 ， 设 计 了 新 的 输出 模块 对 ShuffleNet 模型 进行 改进 ; 为 
ass ， 设 计 了 并 行 的 深度 卷 积 残 差 模块 ， 实 现 了 局 部 与 全 局 特 
征 的 融合 。 为 了 减少 由 歧义 表情 对 识别 性 能 所 带 来 的 不 利 影响 ， 通 过 标签 分 布 学 习 方 法 ， 在 不 引入 额外 信息 的 前 提 
F; 充分 利用 数据 集 原 本 信息 生成 标签 分 布 ， 并 重新 训练 改进 后 的 ShuffleNet 模型 。 实 验 结果 表明 ， 在 RAF-DB, 
AffectNet-7 和 AffectNet-8 数据 集 上 分 别 达到 了 87.15%、62.05% 和 58.499% 的 准确 率 ， 同 时 参数 量 和 计算 量 均 保持 在 
较 低 水 平 ， 利 于 其 在 实际 生产 中 应 用 。 
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Abstract: Aiming at the problems of insufficient facial expression feature extraction in complex environments, insufficient 
generalization ability, and single-label data sets that cannot effectively describe the ambiguous expressions caused by complex 
emotional tendencies, this paper proposed a facial expression recognition method combining improved ShuffleNet and label 
distribution learning. On the premise of not greatly increasing the computational complexity, to avoid over-fitting of the model, 


designed a new output module to improve the ShuffleNet; to enhance the model's ability to extract important local details of 
pi facial expression images, designed a parallel depthwise convolution residual module to realize the fusion of local and global 


3 features. In order to reduce the negative impact of ambiguous expressions on recognition performance, used the label 
na distribution learning method to make full use of the original information of the data set to generate the label distribution 
: without introducing additional information and retrain the improved ShuffleNet model. The experimental results show that 
the accuracy rates of 87.15%, 62.05% and 58.49% are achieved on the facial expression data sets RAF-DB, AffectNet-7 and 
AffectNet-8, at the same time, the number of parameters and FLOPs are kept at a low level, which is conducive to its 


application in actual production. 
Key words: facial expression recognition; lightweight; label distribution learning; ambiguous expressions; depthwise 
separable convolution 


致 参数 量 和 FLOPs 的 急剧 增加 , 虽然 更 大 更 深 的 网 络 模型 效 


0 ala 果 更 好 ， 但 是 模型 运行 时 对 所 需要 的 硬件 配置 要 求 也 越 高 。 

自古 ,“ 观 色 ” 是 全 面 分 析 人 物 心理 活动 的 重要 依据 。 在 。 而 在 实际 生产 与 应 用 环境 中 ， 设 备 的 配置 水 平 往往 受到 成 本 
GEW MW PEA: REEE, MAME RAW 。 限制 ， 过 高 的 配置 需求 不 利于 模型 的 实际 应 用 。 因 此 ， 在 人 
ME, BAFA” 通过 识别 人 脸 表 情 来 以 观 其 色 , 可 以 为 出 。” 脸 表情 识别 领域 除了 在 提高 识别 准确 率 的 同时 ， 也 应 考虑 如 
见 在 场景 中 的 人 物 提供 辅助 的 结构 化 信息 。 因 此 ， 人 脸 表 情 。 何 压缩 模型 的 计算 开销 ， 使 模型 能 够 在 性 能 较 低 的 小 型 嵌入 


识别 (facial expression recognition，FER) 在 情感 计算 、 人 机 交 式 设备 上 正常 运行 。 
互 、 驾 驶 员 疲 劳 检测 、 教 学 效果 评价 等 众多 领域 有 着 广泛 的 1980 年 ， 心 理学 家 Plutchik 等 全 的 研究 表明 : 人 类 的 
MHU? 1978 年 ， Ekman 等 人 Bl 发 表 的 跨 文化 研究 中 首次 定 大 多 数 情绪 都 是 由 基本 面部 表情 组 成 。 在 现实 世界 中 ， 某 一 
义 了 六 种 基本 面部 表情 : 高兴、 伤心、 生气、 害怕、 厌恶 和 静态 的 人 脸 表情 图 像 往往 由 不 同 强度 的 基本 情绪 组 成 ， 有 复 
惊讶 ， 这 些 基 本 情绪 可 以 被 不 同文 化 背景 的 人 感知 、 认 同和 杂 的 情感 意图 ， 但 表情 图 像 却 只 对 应 一 个 标签 。 


由 于 这 种 攻 

理解 。 义 表 情 的 存在 ， 这 使 得 表情 识别 的 效果 严重 受 限 ， 通 过 标签 
近年 来 ， 随 着 深度 学 习 在 计算 机 视觉 领域 的 飞速 发 展 ， 分 布 学 习 (Lable Distribution Learning，LDL) 来 解决 单 标签 无 

它 也 被 成 功 地 应 在 人 脸 表 情 识 别 领域 ， 并 取得 了 良好 的 进 法 有 效 描述 复杂 情感 倾向 的 问题 , 可 以 进一步 提高 FER 模型 


展 。 深 度 学 习 技 术 在 使 表情 识别 准确 率 提 升 的 同时 ， 也 会 导 ”的 识别 性 能 。 此 外 ， 标 签 分 布 学 习 还 可 以 缓解 由 数据 集 标 注 
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者 的 主观 性 和 表情 图 像 的 模糊 性 造成 的 噪声 问题 外 。 


针对 上 述 两 个 问题 


， 本 文 在 轻 量 级 网 络 ShuffleNet 的 基 


的 同时 


础 上 构建 深度 可 分 离 卷 积 残 差 模块 ， 在 
， 可 以 更 好 的 提取 人 脸 表情 图 像 中 眼睛 、 


不 大 量 增加 计算 开销 
嘴巴 等 关键 


细节 部 位 的 特征 ,在 训练 时 ,利用 LDL 方法 来 生成 标签 分 布 ， 


这 有 利于 提高 模型 对 不 同 表情 的 判别 外 


E 力 ， 从 而 提出 了 基于 


标签 分 布 学 习 的 轻 量 级 人 脸 表 情 识 别 (ightweight facial 


expression recognition 
LFER-LDL)， 本 文 方法 在 RAF-DBISI 和 AffectNet-7[] 数 据 集 


based on label distribution learning , 


上 进行 实验 验证 ， 实 验 结 果 表 明 所 提 方 法 在 保持 较 低 计算 开 


销 的 情况 下 ， 较 近 


期 提出 的 一 些 表 情 识别 方法 有 较 好 的 识别 


性 能 提升 。 
1 ”本 文 方法 


本 文 提 
网 络 和 标签 


出 的 人 脸 表 情 识别 模型 主要 1 
分 布 学 习 (LDL) 两 部 分 组 成 组 成 , M 
所 示 。 本 文 的 骨干 网 络 为 ShuffleNet-V21, 该 模型 | 
Stage2、Stage3、Stage4、Conv5 组 成 。 为 了 避免 过 拟 合 ， 使 


改进 的 ShuffleNet 
吉 构 如 图 1 


Convl、 


模型 具有 更 好 的 鲁 棒 性 ， 本 文 设计 了 新 的 输出 模块 来 代替 原 


始 网 络 的 全 连接 层 


卷 积 残 差 模块 (Paral 


PDWRes)。 根 据 Plutchik 等 人 外 的 研究 ， 为 了 


。 为 了 增强 
力 ， 在 不 大 量 增加 额外 计算 开销 的 前 提 下 ， 设 计 了 


网 络 对 局 部 细节 特征 的 提取 能 
行 深度 
lel Depthwise convolution Residual module, 


减少 卜 义 表情 


带 来 的 不 利 影响 ， 在 不 使 用 额外 信息 量 的 前 提 下 ， 利 用 数据 


网 络 (图 1 
29、116、232、464、 


类 人 脸 表 情 识 别 输出 。 
改进 的 ShuffleNet 模型 


1.1 


集 本 身 来 生成 标签 分 布 (图 1 的 右 分 支 )。 改 进 后 的 ShuffleNet 
的 左 分 支 ) 从 Conv1~Conv5 


层 的 输出 通道 数 分 别 为 
得 到 七 分 


1024， 最 后 通过 Softmax JZ, 


深层 的 卷 积 神经 网 络 (convolutional neural network, CNN) 


如 ResNet 和 VGG 


等 可 以 取得 较 高 的 表情 


图 像 分 类 准确 率 ， 


但 模型 o 过 于 复杂 的 网 络 无 法 满足 


小 模型 。 


(pointwise convolution , 


嵌入 式 设备 场景 的 需 

STEERER 
网 络 ShuffleNet-V2, 它 可 以 很 好 的 平衡 识别 准 
度 的 关系 。 在 ShuffleNet-V2 Unit 中 主要 使 


些 移动 端 设备 也 需要 又 快 又 准 的 
K, MaN 等 人 [9 提出 了 轻 量 级 神经 
确 率 和 计算 速 
J 1X1 点 卷 积 
PWConv) 和 深度 4 4R (depthwise 


convolution，DWConv)， 并 对 不 同 特征 组 内 的 通道 信息 进行 


Channel Shuffle 操作 ， 实 现 不 同 组 之 


Lin M 等 人 外 的 


间 的 信息 融合 。 
研究 表明 : 在 CNN 模型 中 参数 占 比 最 大 
的 是 全 连接 层 。 虽 然 全 连接 层 可 以 压缩 特征 图 (feature map) 的 


维度 并 输入 到 softmax 层 ， 最 终 得 到 七 分 类 人 脸 表 情 图 像 ， 


但 这 会 造成 过 拟 合 ， 


文 设计 了 改进 的 输出 模块 来 蔡 换 骨 
层 输 出 模块 ， 改 进 输 出 模块 如 图 2 所 示 。 


的 全 连 


改进 输出 模块 


不 利于 增强 模型 的 泛 化 能 力 。 为 此 ， 本 
干 网 络 ShuffleNet-V2 中 


主要 a 这 与 


骨干 网 络 中 的 点 卷 积 和 深度 卷 积 类 似 。 


深度 可 分 离 卷 积 的 卷 


职 层 通 道 相 关 必 


E 和 空间 相关 性 cement 相 较 于 普 


Ż 


大 小 为 Hxw 的 输入 


通 卷 积 ， 深 度 可 分 离 卷 积 模块 可 以 在 进 


步 提取 人 脸 表情 特 


征 的 同时 不 引入 大 量 的 参数 。 当 大 小 为 dxd 的 卷 积 核 作 用 在 


REAP ERY 令 输入 、 输 出 的 通道 数 分 


别 为 C 和 ?可 得 普 


通 卷 积 计算 参数 量 为 HxWxCx(dxdxn)， 


而 深度 可 分 离 卷 积 上 


风 计 算 参 数量 为 卫 x>WxCx(dxd+n) 。 因 此 ， 


深度 可 分 离 卷 积 的 参 


为 了 防止 梯度 弥散 ， paneer 能 
合 ， 深 度 可 分 离 卷 积 后 均 使 用 了 ReLu 激活 函数 ， 虽 然 其 在 


反 向 传播 时 速度 较 怕 


数量 仅 为 标准 卷 积 的 三 Lg. 
， 减 少 过 拟 


LL ， 但 对 于 输入 不 大 于 0 的 神经 元 将 会 被 


ChinaXiv 合 作 期 刊 


第 39 BF 8 期 


抑制 ， 导 致 权重 无 法 更 新 ， 这 会 影响 整个 模型 的 最 终 表 达 。 
本 文 对 深度 可 分 离 卷 积 模块 进行 改进 ， 将 ReLu 激活 函数 蔡 
HON Mish 激活 函数 。Mish 激活 函数 公式 为 
Mish = x* tanh(In(1+e*)) (1) 
Mua E’ - ShuffleNet 
Conv 1~Conv5 Unit 
"g a DWConv 
Mish 
PWConv 
Mish 
Softm ax 
| a 
> 前 向 传播 
-> gima ) | 一 一 一 一 | eames Ne Su An Di Fe Sa Ha 


图 1 


本 文 的 表情 识别 网 络 结构 图 2 oe 


Fig. 1 The expression recognition 


输 昌 uy 模块 流程 图 
Fig.2 Improve the output 


network structure of this article module flow chart 

Mish 激活 函数 曲 
度 流 , 而 不 像 ReLu 中 的 硬 零 边界 , 这 利于 特征 信息 的 流动 。 
此 外 ，Mish 


息 深 入 神经 网 络 ， 从 而 取得 更 好 的 识别 准 


确 率 和 泛 化 性 。 


一 mish 


b lb e mn v ph wm mm y o 


图 3 Mish 激活 函数 曲线 图 
Fig.3 Mish activation function graph 
并 行 深度 卷 积 残 差 模块 的 设计 
人 脸 表情 识 另 
睛 、 嘴 巴 等 部 位 可 以 更 容易 地 表现 
别 表情 时 也 往往 关注 这 些 区 域 。 因 此 ， 为 了 使 网 络 可 
的 学 习 局 部 细节 特征 ， 
(PDWRes), 
式 补 全 到 骨干 网 络 中 ， 实 现 了 局 部 与 全 局 特征 
络 更 加 关注 人 脸 表 情 图 像 中 的 重要 性 
构 如 图 4。 


1.2 


NE 


ql 


的 融合 ， 


a 


图 4 PDWRes 模块 结构 图 


Fig.4 Pdwres module structure diagram 


线 图 如 图 3， 它 对 负 值 保留 了 一 定 的 梯 


线 上 的 每 一 点 都 是 平滑 的 ， 这 将 允许 更 好 的 信 


往往 与 局 部 细节 特征 有 关 ， 例 如 眉毛 、 眼 
出 不 同 的 情绪 ， 人 眼 在 识 
DAR 
文 设 计 了 并 行 的 深度 卷 积 残 差 模块 
通过 对 局 部 区 域 的 特征 提取 ,并 以 残 差 结构 的 形 
使 网 
特征 ，PDWRes 模块 结 


对 于 输入 大 小 为 224X224 的 RGB 人 脸 表 情 图 像 ， 在 通 


过 底层 Convl 之 后 得 到 特征 图 ReR” ， 
H =W =56,c=29 。 受 到 近期 Transformer 模型 U1 的 启发 ， 
将 特征 图 五 进行 水 平 、 垂 直方 向 二 等 分 ， 得 到 四 块 人 


=> 


其 中 


下 图 Ft eR” ,其 中 h=w=28，k={1,2,3,4} , F 


表情 的 区 域 特 和 


ott 
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对 每 小 块 特征 图 依次 经 过 两 次 3X3 DWConv 操作 ， 得 到 人 


脸 不 同 区 域 的 细节 特征 图 Fores RM", 


节 所 述 ， 为 了 避免 
提取 特征 。 为 了 加 


其 中 c=116。 如 1.1 
引入 大 量 计算 参数 ， 这 里 仅 使 用 深度 卷 积 
快 模型 的 收敛 速度 ， 在 每 一 次 深度 卷 积 之 


后 均 使 用 了 批量 归 


化 (batch normalization，BN)， 为 了 增强 


模型 的 稀疏 性 ， 减 少 元 余 度 ， 在 BN 后 同时 使 用 ReLu6 激活 
函数 ，ReLu6 定义 如 下 : 


6, x26 
ReLu6(x) = min(max(0, x),6) =4 x, O<x<6 (2) 
0, 其 他 
ReLu6 激活 函数 将 ReLu 函数 线性 部 分 的 上 限 设 为 6, 这 


有 利于 在 低 精 度 的 移动 端 


强 模型 的 稳定 性 。 


设备 上 实现 更 好 的 数值 分 辨 率 ， 增 
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多 分 类 问题 ,其 输出 是 多 个 二 进 制 交叉 焙 的 平均 值 .Dice Loss 
主要 用 于 处 理 数据 集中 类 别 不 平衡 问题 ， 减 小 模型 在 易 分 类 
表情 上 的 过 拟 合 。combo loss 可 以 写 为 


1 N 
L -a[-2> 60, inp) +1 Pa- ~ p)])- 


a-a 2 pte | (6) 
Sty pte 

其 中 ,二 和 疡 分 别 表 示 真 实 值 与 预测 值 。 超 参数 & 平衡 combo 
loss EKZ WML. BBA 8 控制 对 FP 与 FN 的 正则 
化 程度 ， 实 验 时 根据 不 同 数据 集 调整 。 为 了 避免 分 母 为 0, 
实验 时 6 取 1 进行 平滑 。 


Lol 


2 实验 


最 后 ， 将 四 块 区 域 特 征 图 Fow 沿 着 水 平和 垂直 方向 进 21 数据 集 介绍 
行 拼接 ， 可 得 完整 的 局 部 特征 图 Frome ER , FRE Foowns 补 本 文 实 验 在 大 规模 人 脸 表情 数据 集 RAF-DBI9 和 
充 到 经 过 Stage2 之 后 的 全 局 特征 Poe 中 , 可 得 全 局 与 局 部 特 。 AffectNetlJ 数 据 集 上 进行 实验 评估 ， 其 中 RAF-DB 和 
征 融 合 表 达 式 为 AffectNet-7 均 为 7 种 类 别 的 表情 标签 : 悲伤 、 惊 讶 、 厌 恶 、 
素 三 卫士 三 (3) 了 恐惧、 快乐 、 愤 怒 、 中 立 ，AffectNet-8 数据 集 在 此 基础 上 增 
于 随 着 网 络 深度 的 加 深 ， 特 征 图 将 越 来 越 小 ， 这 将 不 加 了 成 视 的 表情 ， 有 8 种 类 别 的 表情 标签 。 
利于 PDWRes 模块 进行 局 部 特征 提取 。 因 此 ,为 了 尽 可 能 地 RAF-DB 数据 集 是 真实 此 界 人 脸 情 感 数据 库 (Real-world 
减少 对 模型 引入 额外 的 计算 量 , 本 文 只 在 Stage2 阶段 使 用 了 Affective Faces Database), 共有 七 分 类 表情 图 像 15339 张 , 每 
PDWRes 模块 。 张 图 像 均 由 40 人 独立 标注 ， 分 为 12271 张 训练 集 和 3068 张 
13 标签 分 布 学 习 测试 集 。 这 些 表情 图 像 存 在 着 遮挡 、 姿 势 、 光 照 条 件 等 不 同 
人 脸 表 情 图 像 的 标注 往往 需要 大 量 的 人 力 物 力 ， 且 情感 ” 方面 的 影响 ， 9 较 大 的 差异 性 与 实际 应 用 价值 。 
分 布 难以 获得 , 这 会 造成 歧义 表情 ,不 利于 表情 图 像 的 分 类 。 AffectNet 是 迄今 为 止 最 大 的 人 脸 表 情 数 据 集 , 包含 超过 
为 了 弥补 表情 分 类 时 单 标签 信息 量 的 不 足 ， 本 文 使 用 了 标签 100 万 张 来 自 互 联网 的 面部 图 片 ， 这 些 图 片 通过 不 同 的 搜索 
分 布 学 习 的 方法 来 生成 表情 分 布 ， 如 图 1 的 右 分 支 ， 其 骨 引擎 检索 情感 标签 获得 ， 其 中 大 约 一 半 (44 万 ) 的 图 像 被 标注 


网 络 为 ResNet-50， 
签 分 布 学习 方 法 上 进行 预 训练 ， 收 集 人 脸 表 情 数 据 集 整 体 的 
再 将 生成 的 数据 标签 分 布 重 新 训练 改进 后 的 


分 布 ， 
ShuffleNet 网 络 。 


给 定 一 张 人 脸 表 情 图 像 x， 其 标签 Ye{1,2.… 


了 11 种 表情 类 别 。 本 文 使 用 AffectNet 数据 集中 手动 标记 的 


将 不 同 的 单 标签 人 脸 表情 数据 集 在 该 标 


ù, Hig 


示 表 情 图 像 的 类 别 数 ， 标 签 分 布 学 习 将 会 收集 数据 集中 表情 


得 ox, 


计算 表情 图 像 < 属于 类 别 ; 的 


P(Y= 


其 中 ， 


图 像 的 分 布 Peon o 
标签 分 布 学 习 最 后 以 Softmax 层 作 为 输出 ，Softmax 


@@ 是 第 i 类 的 权重 向 量 ，j/ 表示 总 类 


通过 ResNet-50 的 全 连接 层 (FC) 之 后 可 


条 件 概 率 为 
exp(w, x) 


2 exp(w]x) (4) 


i| x) = Softmax(w,' x)= 


AHL. LDL 的 输 


出 结果 是 输入 表情 
率 之 和 为 1。 
为 了 利于 梯度 


图 像 x 属 于 7 种 不 同 表情 的 概率 ， 这 些 概 


的 反 向 传播 ， 本 文 使 用 


KL HUE KE = 


进 后 ShuffleNet 模型 的 预测 输出 与 LDL 得 到 标签 分 布 之 间 


的 差异 。KL BUS ALAR SIN, 这 满足 深度 学 习 梯 度 下 降 法 特 
非 对 称 性 ， 


性 , 但 由 于 其 具 
为 数据 的 真实 分 布 


拟 合 分 布 2(z) ， 


L 


PTE KL 散 度 


本 文 将 LDL 得 到 的 标签 分 布 作 
P(x), BORJE ShuffleNet 模型 的 输出 作为 
ik; PERMO N M KL MEETS 

= 一 一 x? )lo, Qr) 

= ody Pano FED (5) 
只 在 训练 时 使 用 ， 用 于 帮助 改 


进 后 ShuffleNet 网 络 更 好 的 学 习 数据 集中 人 脸 表情 的 分 布 与 


判别 。 


HJ 22 X (CE loss) 


在 测试 时 ， 仅 根据 改进 ShuffleNet 模型 softmax 层 输 
出 概率 的 最 大 值 作 为 网 络 的 输出 。 

在 测试 阶段 ， 使 用 combo loss 作为 损失 函数 ， 它 | 
与 dice loss 的 加 权 和 构成 。 为 了 控制 对 不 


同 数据 集中 假 阳 性 (falsepositive, FP) 和 假 阴 性 (falsenegative， 


FN) 的 正则 化 程度 ， 


纠正 网 络 的 学 习 , SE Hl AC HEY BY 


29 万 张 表 情 图 像 用 作 训 练 集 ， 在 AffectNet-7 中 有 3500 张 测 
试图 像 ， 在 AffectNet-8 中 有 4000 张 测试 图 像 。 图 5 展示 了 
RAF-DB 和 AffectNet-7 数据 集 上 的 表情 图 像样 例 。 


悲伤 惊讶 厌恶 WR 快乐 愤怒 中 立 
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图 5 数据 集 图 像样 例 
Fig. 5 Sample dataset image 

2.2 ”实验 环境 与 数据 预 处 理 

本 文 实验 均 在 Ubuntu 16.04 系统 下 完成 ， 基 于 深度 学 习 
框架 PyTorch 1.1 和 解释 器 Python 3.7 实现 ， 硬 件 环境 : CPU 
H E5-2637 v4, GPU 为 NVIDIA GeForce GTX 1080Ti， 显 存 
大 小 为 11GB， 加 速 库 为 CUDA 10.2. 

在 真实 场景 采集 的 RAF-DB 和 AffectNet 数据 集 里 ， 表 
青 图 像 中 人 脸 的 大 小 、 角 度 、 姿 势 各 有 不 同 ， 这 不 利于 模型 
的 学 习 , 因此 均 使 用 了 Retinaface023 进 行人 脸 检 测 和 对 齐 。 为 
了 优化 模型 的 学 习 效率 , 本 文 方法 在 MS-Celeb-1M 人 脸 数据 
集 上 进行 预 训练 。 为 了 避免 过 拟 合 , 将 RAF-DB 和 AffectNet 
数据 集 所 有 表情 图 像 的 大 小 均 调 整 为 224X224, 并 随机 水 平 
翻转 ， 随 机 翻转 概率 为 0.5。 
2.3 实验 设置 

本 文采 用 随机 梯度 下 降 法 (Stochastic Gradient Descent， 
SGD) 训 练 ， 将 初始 学 习 率 设 为 0.01， 动 量 为 0.9， 权 重 衰减 
为 1x10+ ， 在 RAF-DB 和 AffectNet 数据 集 上 均 迭 代 120 次 。 
由 于 不 同 数据 集 样本 的 差异 性 , 在 RAF-DB 数据 集 上 的 批 处 
理 大 小 为 32， 每 30 轮 学 习 率 以 0.1 e 在 
AffectNet 数据 集 上 批 处 理 大 小 为 64， 每 10 轮 学 习 率 以 0.1 


= 
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的 衰减 率 衰减 , 此 外 , AffectNet 数据 集 的 训练 集 是 不 平衡 的 ， 效果 进行 对 比 ， 如 表 1 所 示 。 在 参数 量 方面 ， 本 文 方法 的 参 
但 测试 集 是 平衡 的 ， 因 此 使 用 了 均衡 采样 策略 。 数量 仅 为 1.26M, 这 远 低 于 gACNNI4 方 法 的 134.29M, 并 且 
2.4 实验 结果 与 分 析 相 较 于 参数 量 较 小 的 Separate Loss!!>! RANA DDA Loss!!8] 
为 了 验证 本 文 所 提 方 法 的 有 效 性 并 衡量 模型 的 计算 复杂 方法 ， 本 文 方法 的 参数 量 也 仅 为 其 十 分 之 一 ， 较 大 的 压缩 了 
度 ， 以 ShuffleNet-V2 作为 主干 网 络 ， 改 进 其 输出 层 并 增加 ”模型 的 参数 量 。 在 浮 点 运算 数 方面 ， 本 文 方法 的 FLOPs 为 
PDWRes 模块 ， 引 入 标签 分 布 学 习 ， 在 大 规模 人 脸 表 情 数据 294.60M， 相 较 于 gACNN 方法 压缩 了 98.09% 的 计算 量 ， 相 
集 RAF-DB 和 AffectNet 上 进行 实验 ， 并 就 识别 准确 率 与 计 较 于 Separate Loss 和 DDA Loss 方法 也 压缩 了 83.81% 的 计算 
算 复 杂 度 同 其 他 方法 进行 了 比较 。 量 ， 使 本 文 模型 具有 较 低 的 复杂 度 。 在 准确 率 方面 ， 相 较 于 
2.4.1 平衡 系数 O 对 分 类 效果 的 影响 近期 提出 的 RAN 和 DDA Loss 方法 ， 本 文 的 准确 率 提 升 了 
该 实验 是 为 了 探究 Combo Loss 损失 函数 中 平衡 系数 0.25%， 相 较 于 IPA2LT"31, gACNN,\ Separate Loss 和 LDL- 
对 不 同人 脸 表 情 数 据 集 识别 准确 率 的 影响 。 平 衡 系数 4 控制 ALSG071， 本 文 模型 的 识别 准确 率 也 分 别提 升 了 0.38%、 
着 Dice Loss 对 L HRE, KISI, Xf Combo Loss 与 改进 交 2.08%、0.77% 和 1.62%。 由 于 数据 集中 的 标签 可 能 存在 标注 
SUG DCF IY) AAAS HA, 即 @=0.5 。 平衡 系数 Be(0.1) 控 HV We 等 人 19 提出 了 自治 愈 网 络 SCN， 通 过 正则 化 排 
BA EAS SY FP 和 FN WART cae 4 BNF 0.5 时 ， 序 和 重 标签 等 操作 纠正 网 络 的 学 习 , 在 RAF-DB 数据 集 上 取 
于 (4-#)In(1-p) 的 权重 更 大 ,FP 将 比 FN 受到 的 惩罚 更 多 ， 得 了 87.03% 的 准确 率 ， 与 之 相 比 提升 了 0.12%， 
反之 同 理 ， 实 验 时 ， 以 0.1 nai 到 1 进行 取 值 。 FLAS SCI BSA Be FLOPs 分 别 压缩 了 10 倍 和 6 倍 ， 验 证 了 
在 RAF-DB 数据 集 上 的 实验 结果 如 图 6 所 示 , 表情 识别 本文 方法 的 有 效 性 。 可 以 看 出 ， 本 文 方法 在 保持 较 低 参 数量 
准确 率 随 着 平衡 系数 B 的 递增 先 增加 后 下 降 , 在 B 取 0.2 时 ， 与 计算 量 的 前 提 下 ， 同 时 较 好 的 识别 准确 率 ， 这 有 利于 
识别 准确 率 达 到 最 高 87.15%, “4 ANT 0.2 时 ， 模 型 的 识别 本文 模 型 在 实际 生产 中 的 应 用 。 
准确 率 不 足 ， 当 EB 的 取 值 大 于 0.2 时 ， 模 型 的 识别 准确 率 开 始 表 1 RAF-DB 数据 集 上 不 同方 法 的 准确 率 和 计算 复杂 度 比 较 
下 降 。 这 表明 对 于 RAF-DB 数据 集 ， 需 要 对 假 阳 性 样本 图 片 进 Tab. 1 Comparison of accuracy and computational 
{TRAN ET, 以 铺 助 重型 的 学 习 取得 该 好 的 识别 准确 率 。 complexity of different methods on the RAF-DB 
方法 年 份 ” 参 数量 (M) FLOPs(M) ”准确 率 (%) 
= IPA2LT"?! 2018 23.52 4109.48 86.77 
} Rm 一 一 SS 、 as 2019 134.29 15479.79 85.07 
7 eparate Loss 2019 11.18 1818.56 86.38 
RANI] 2020 11.19 14548.45 86.90 
1 LDL-ALSGU7] 2020 23.52 4109.48 85.53 
图 6 平衡 系数 8 对 RAF-DB 数据 集 识别 准确 率 影响 DDA Lossns 2020 11.18 1818.56 86.90 
Fig.6 The influence of balance coefficient 2 on the recognition SCN"?! 2020 11.18 1818.56 87.03 
accuracy of RAF-DB LFER-LDL 2021 1.26 294.60 87.15 
在 AffectNet-7 数据 集 上 的 实验 结果 如 图 7 所 示 , 表情 识 2.4.3 AffectNet 实验 结果 
别 准确 率 随 着 平衡 系数 A 的 递增 先 下 降 后 增加 再 下 降 , 在 Z 9 展示 了 AffectNet-7 表情 数据 集 上 训练 与 测试 的 准 
取 0.6 时 ， 识 别 准确 率 达 到 最 高 62.05%， 当 小 于 0.6 时 ， 确 率 曲 线 和 损失 函数 曲线 ， 与 RAF-DB 实验 一 样 ， 将 损失 函 
模型 准确 率先 降 后 升 ， 当 大 于 0.6 时 ， 模 型 的 识别 准确 率 数 曲 线 作 同 样 的 放大 的 处 理 。 从 图 中 可 以 看 出 ， 在 训练 到 第 
开始 明显 下 降 。 对 于 AffectNet 数据 集 , 需要 对 假 明 性 样本 图 15 轮 时 ， 模 型 已 基本 收敛 ， 较 快 的 拟 合 速 度 ， 这 得 益 
片 进行 惩罚 。 实 验 结果 表明 平衡 系数 8 对 网 络 的 识别 效果 有 LDL 模块 辅助 模型 的 学 习 ， 可 以 快速 稳定 的 收 化 ,这 也 有 利 
较 大 影响 ， 不 同 数据 集 下 平衡 系数 B 的 选择 至 关 重 要 。 于 模型 在 实际 能 入 式 设备 上 的 运行 ， 同 样 也 避免 了 模型 的 过 
621 拟 合 问题 , 模型 最 终 在 大 规模 表情 数据 集 AffectNet-7 上 的 识 
ne 别 准确 率 达 到 了 62.05%. 
Pi 618 为 了 验证 本 文 方法 在 AffectNet-7 数据 集 上 的 有 效 性 及 
Rol 其 计算 复杂 度 ， 与 近年 来 其 他 方法 进行 对 比 ， 对 比 情况 如 表 


”61.6 


2。 在 参数 量 方面 ， 本 文 方法 仅 为 VGG FaceD21 方 法 参数 量 
145M 的 0.8%， 相 较 于 其 他 方法 ， 本 文 方法 的 参数 量 仅 为 其 
0.93%~51.01%， 本 文 的 参数 量 保 持 在 较 低 水 平 。 在 浮 点 运算 
数 方面 ， 相 较 于 VGG Face 方法 的 15490.46M， 本 文 方法 压 
HT 98.1% 的 计算 量 ， 该 压缩 量 与 gACNN 方法 相 比 近似 ， 

accuracy of affectnet-7 相 较 于 其 他 7 种 方法 ,本 文 方法 也 压缩 了 61.40%~94.8% 的 计 


61.5 


61.4 
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iG RMB 
图 7 平衡 系数 B 对 AffectNet-7 数据 集 识 别 准 确 率 影响 
Fig.7 The influence of balance coefficient on the recognition 


2.4.2 RAF-DB 实验 结果 算 量 。 在 准确 率 方面 ， 相 较 于 近期 提出 的 VGG Face 和 LDL- 
图 8 展示 了 在 RAF-DB 表情 数据 集 上 训练 与 测试 的 准确 ALSG， 本 文 的 识别 准确 率 分 别提 升 了 2.05% 和 2.70%， 相 较 
率 曲 线 和 损失 函数 曲线 ， 为 了 在 同一 坐标 系 下 清晰 显示 , 将 F IPA2LT, gACNN, Separate Loss, IPFR 和 FMPN 方法 ， 
损失 函数 曲线 放大 30 倍 。 从 图 中 可 以 看 出 ， 在 训练 到 第 35 ”本文 的 准确 率 也 分 别提 升 了 4.74%、3.27%、3.16%、4.65% 和 
轮 时 ， 模 型 已 基本 收敛 ， 且 最 终 训 练 集 与 测试 集 的 识别 准确 0.53%, 尽管 本 文 的 识别 准确 率 不 及 SNA-DFER 和 DDALoss， 
率 相差 不 大 ， 这 得 益 于 改进 ShuffleNet 模型 的 输出 模块 ， 避 但 在 参数 量 上 SNA-DFER 和 DDA Loss 方法 分 别 为 本 文 的 
免 了 模型 的 过 拟 合 ， 模 型 最 终 在 RAF-DB 数据 集 上 的 识别 准 1.9 信和 8.8 倍 ， 在 FLOPs 上 两 者 分 别 为 本 文 的 2.5 倍 和 6.1 
确 率 达 到 了 87.15%。 倍 ， 这 不 利于 模型 在 性 能 较 低 的 嵌入 式 设 备 上 运行 。 综 合 来 
为 了 进一步 验证 本 文 模型 的 有 效 性 ， 并 衡量 模型 的 计算 看， 本 文 方法 在 有 效 降低 模型 复杂 度 的 同时 能 保持 较 高 水 平 
复杂 度 , 在 RAF-DB 表情 数据 集 上 与 近年 来 其 他 文献 的 识别 的 表情 识别 效果 ， 验 证 了 本 文 方法 的 有 效 性 与 实用 性 。 
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图 8 RAF-DB 的 训练 与 测试 曲线 


Fig.8 Training and testing curves of RAF-DB 


图 


Fig. 9 
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9 AffectNet-7 的 训练 与 测试 曲线 


Training and testing curves of affectnet-7 


长 上 不 同方 法 的 准确 率 和 计 


复杂 度 比 较 


Tab.2 Comparison of accuracy and computational complexity of 
different methods on the AffectNet-7 


方法 年 份 ” 参 数量 (M) ”FLOPs(M) ”准确 率 (%) 

IPA2LT!3! 2018 23.52 4109.48 57.31 
gACNN!"4] 2019 134.29 15479.79 58.78 
IPFR?° 2019 21.80 5729.12 57.40 
Separate Loss!'*! 2019 11.18 1818.56 58.89 
FMPN™! 2019 21.80 5729.12 61.52 
VGG Face?) 2020 145.00 15490.46 60.00 
LDL-ALSG"7! 2020 23.52 4109.48 59.35 
SNA-DFERP3] 2020 2.47 763.09 62.70 
DDA Loss!'*! 2020 11.18 1818.56 62.34 
LFER-LDL 2021 1.26 294.60 62.05 

同时 ， 为 了 进一步 验证 本 文 方法 在 含有 8 类 情感 标签 数 


据 集 AffectNet-8 上 的 有 效 性 ， 并 评估 


他 方法 进行 了 对 


数据 集 
Weighted-loss、VGGNet-Variant 和 RAN 方法 ， 本文 的 参数 量 
MAH 2.21%、19.27% 和 11.26%。 在 浮 点 运算 数 方面 ， 


其 参数 量 和 FLOPs, 与 


比分 析 ， 如 表 3 所 示 ， 本 文 在 AffectNet-8 


上 取得 了 58.49% 的 准确 率 。 在 参数 量 方 


Hl 相 较 于 


Weighted-loss 的 FLPOPs 约 为 本 文 方法 的 2400 倍 ，RAN 和 


ESR-9 方法 分 别 为 本 文 的 49 倍 和 3 倍 。 在 


于 Weighted-loss, MobileNet-Variant 和 VGGNet-Variant 方法 ， 


确 率 方面 , 相 较 


本 文 提升 了 0.49%、2.49% 和 0.49% 
确 率 不 及 RAN 和 ESR-9, 但 是 本 文 的 FLOPs 都 


的 准确 率 ， 尽 管 本 文 的 准 
远 


氏 于 二 者 。 


MobileNet-Variant 方法 虽然 在 参数 量 和 FLOPs 上 均 取 得 了 较 
是 其 准确 率 比 本 文 低 了 约 2.5%。VGGNet- 


好 的 效果 ， 但 


Variant 方法 也 实现 了 较 
率 上 的 表现 不 及 本 文 ， 可 以 看 
性 能 两 者 不 可 兼 得 , 本 文 在 保持 较 低 参 数量 和 FLOPs 的 前 提 


EHI FLOPs, 但 是 划 


E2 B 数 里 和 准确 


x 


HERE Et St IS 8 FE He A) 


下 ， 在 AffectNet-8 数据 集 上 仍 取 得 了 不 错 的 表现 。 


表 3 AffectNet-8 数据 集 上 不 同 


方法 的 准确 率 和 计算 复杂 度 比 较 


Tab. 3 Comparison of accuracy and computational complexity of 
different methods on the AffectNet-8 


方法 


py 


F 份 参数 量 (M) FLOPs(M) 准确 率 (%) 


Weighted-loss!7! 2017 57.03 710624.57 58.00 
MobileNet-Variant4! 2018 0.074 13.56 56.00 
VGGNet-Variant™! 2018 6.54 80.44 58.00 
RAN! 2020 11.19 14548.45 59.50 
ESR-9!25] 2020 0.37 1164.43 59.30 
LFER-LDL 2021 1.26 294.60 58.49 
从 表 3 可 以 看 出 ，AffectNet-8 是 一 个 具有 挑战 性 的 人 脸 


表情 数据 集 ， 本 文 方法 在 AffectNet-7 和 AffectNet-8 数据 集 


上 的 准确 率 也 有 


ED S SEALE 


的 表情 ， 


据 集 的 三 视 表 | 


青 中 存 如 


E 大 量 非 本 表情 站 


6 


图 


定 差 异 , AffectNet-8 在 AffectNet-7 的 基础 
通过 观察 数据 集 发 现 ，AffectNet-8 数 


像 ， 例 如 快乐 等 ， 
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标注 者 的 主观 性 造成 的 标签 噪声 , 这 将 不 利于 网 络 的 学 习 ， 
10 展示 了 茂 视 表情 中 的 部 分 并 不 属于 莽 视 的 图 像 。 


mH 


M 


图 10 茂 视 表情 中 包含 的 | 他 类 别 表情 图 像 

Fig. 10 Other expression images in the contempt expression 
2.4.4 消融 实验 

本 文 方法 包括 对 输出 模块 的 改进 、 并 行 深度 卷 积 残 差 模 
块 的 设计 以 及 标签 分 布 学 习 ， 为 了 分 析 不 同 部 分 对 人 脸 表情 
识别 效果 的 影响 ， 以 RAF-DB 数据 集 为 例 进行 了 消融 实验 。 

本 节 以 ShuffleNet 为 基线 ， 依 次 加 入 改进 的 输出 模块 、 
并 行 深度 卷 积 残 差 模块 和 标签 分 布 学 习 ， 分 析 三 个 模块 对 识 
别 性 能 的 影响 ， 实 验 结果 如 表 4 所 示 。 通 过 改进 输出 模块 ， 
提取 人 上 脸 表情 高 维特 征 ， 在 参数 量 增加 0.02M 和 FLOPs 增 
加 0.03M 的 情况 下 ， 识 别 准确 率 相 较 于 ShuffleNet 基线 网 络 
提升 了 0.47%， 这 得 益 于 改进 输出 模块 中 深度 可 分 离 卷 积 对 
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人 脸 表情 特征 的 进一步 提取 ， 同 时 使 用 的 Mish 激活 函数 也 
保证 了 特征 信息 的 流动 。 并 行 深度 卷 积 残 差 模 块 通过 集成 深 


度 卷 积 获取 局 部 区 域 特征 ， 使 网 络 更 加 关注 不 同 表情 中 的 细 


微 差 异 ， 在 参数 量 增加 0.01M 和 FLOPs 增加 3.09M 的 情况 


下 ， 


相 较 于 基线 网 络 有 1.36% 的 提升 ， 通 过 将 局 部 特征 融合 


到 全 局 特征 中 ， 这 使 得 模型 更 加 关注 人 脸 表 情 图 像 中 具有 鉴 


Alt 


的 特征 ， 而 这 一 特点 与 人 眼 的 工作 原理 相似 。 标 签 分 布 


学 习 有 利于 减少 歧义 表情 的 影响 ， 而 这 并 不 会 引入 额外 的 参 
数量 和 FLOPs, 最 终 达到 了 87.15% 的 准确 率 ， 相 较 于 原始 网 


络 提升 了 5.13%， 现 实 世 界 中 的 人 脸 表 情 图 像 往往 具有 复杂 
的 情感 意图 ， 标 签 分 布 学 习 通 过 收集 数据 集中 表情 图 像 的 分 


布 ， 


来 减少 歧义 表情 的 不 确定 性 ， 这 有 利于 缓解 单 标签 所 带 


来 信息 量 不 足 的 问题 ， 说 明了 本 文 方 法 的 有 效 性 。 


表 4 消融 实验 对 比 结果 


Tab.4 Ablation experiment comparison results 


Baseline 改进 输 ”并 行 深度 卷 积 me 参数 FLOPs(M) 准确 
出 模块 BÆRI W ŒM) 率 (%) 

+ - = 1.23 291.48 82.02 

+ + = - 1.25 291.51 82.49 

+ + + - 1.26 294.60 83.85 

+ + + + 1.26 294.60 87.15 


最 后 ， 为 了 将 本 文 方法 的 结果 进行 可 视 化 ， 将 训练 好 的 


网 络 模型 保存 并 进行 人 脸 表 情 识 别 ， 在 网 上 随机 选取 图 像 以 


] 作 实例 测试 ， 测 试 结果 如 图 11 Aras. 
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图 11 实例 测试 结果 
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Fig. 11 Example test results 


人 脸 表 情 识别 在 诸多 领域 有 着 广泛 的 应 用 ， 但 在 实际 4 
产 环境 中 ， 过 于 复杂 的 网 络 模型 不 利于 在 配置 受 限 的 设备 上 
运行 。 因 此 ， 本 文 提出 了 一 种 基于 标签 分 布 学 习 的 轻 量 级 人 
脸 表 情 识 别 方法 。 本 方法 从 特征 提取 的 角度 ， 对 传统 的 
ShuffleNet 网 络 模型 作出 改进 ， 并 设计 了 并 行 深度 卷 积 残 差 
模块 ， 这 有 利于 增强 模型 对 人 脸 表 情 图 像 中 局 部 细节 的 特征 
提取 能 力 ; 在 训练 策略 上 ， 通 过 标签 分 布 学 习 ， 解 决 单 标签 
FE 量 不 足 带 来 的 歧义 表情 问题 。 最 后 ， 研 究 分 析 了 Combo 
Loss 损失 函数 中 平衡 系数 对 不 同人 脸 表 情 数据 集 的 影响 。 本 
文 分 别 在 RAF-DB, AffectNet-7 和 AffectNet-8 数据 集 上 做 了 
对 比 实验 ,实验 结果 表明 , 本 方法 在 保持 较 低 参 数量 和 FLOPs 
的 前 提 下 ， 仍 具有 较 高 的 识别 精度 ， 具 备 较 强 的 实用 性 。 
深度 学 习 模 型 在 人 脸 表情 识别 研究 中 往往 需要 大 量 的 标 
数据 ， 这 不 仅 会 产生 昂贵 的 标注 成 本 ， 而 且 可 能 会 引入 主 
寻 素 的 标签 噪声 。 因 此 在 接 下 来 的 工作 中 ， 将 研究 如 何 进 
行 半 监督 或 无 监督 学 习 的 人 脸 表 情 识别 。 
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